#cota de regret

Cuándo y por qué funciona la exploración aleatoria en bandidos lineales

Exploración aleatoria (Thompson sampling) logra arrepentimiento óptimo en bandidos lineales con espacios convexos. ¡Un avance clave!

2026-06-04 · 2 min

Aprendizaje online con regret de intervalo por variación de gradiente

Descubre: Primer algoritmo de aprendizaje online con regret de intervalo adaptativo a la variación del gradiente. Garantías óptimas y ajuste automático.

2026-06-03 · 1 min